Une nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité

نویسندگان

  • Jean-Charles Lamirel
  • Pascal Cuxac
  • Kafil Hajlaoui
چکیده

Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de calculer pour chacune d’elles une fonction de contraste. La méthode est expérimentée sur différents types de données textuelles. Dans ce contexte, nous montrons que cette technique améliore les performances des méthodes de classification de façon très significative par rapport à l’état de l’art des techniques de sélection de variables, notamment dans le cas de la classification de données textuelles déséquilibrées, fortement multidimensionnelles et bruitées.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Caractérisation automatique des classes découvertes en classification non supervisée

Résumé. Dans cet article, nous proposons une nouvelle approche de classification et de pondération des variables durant un processus d’apprentissage non supervisé. Cette approche est basée sur le modèle des cartes auto-organisatrices. L’apprentissage de ces cartes topologiques est combiné à un mécanisme d’estimation de pertinences des différentes variables sous forme de poids d’influence sur la...

متن کامل

Une méthode optimale d'évaluation bivariée pour la classification supervisée

Résumé. En préparation des données pour la classification supervisée, les méthodes filtres usuellement utilisées pour la sélection de variables sont efficaces en temps de calcul. Néanmoins, leur nature univariée ne permet pas de détecter les redondances ou les interactions constructives entre variables. Cet article présente une nouvelle méthode permettant d'évaluer l'importance prédictive joint...

متن کامل

Détection de séquences atypiques basée sur un modèle de Markov d'ordre variable

Résumé. Récemment, le nombre et le volume des bases de données séquentielles biologiques ont augmenté de manière considérable. Dans ce contexte, l’identification des anomalies est essentielle. La plupart des approches pour les extraire se fondent sur une base d’apprentissage ne contenant pas d’outlier. Or, dans de très nombreuses applications, les experts ne disposent pas d’une telle base. De p...

متن کامل

Étude de l'interaction entre variables pour l'extraction des règles d'influence

Résumé. Cet article présente une méthode efficace pour l’extraction de règles d’influence quantitatives positives et négatives. Ces règles d’influence introduisent une nouvelle sémantique qui vise à faciliter l’analyse d’un volume important de données. Cette sémantique fixe la direction de la règle entre deux variables en positionnant, au préalable, l’une comme étant l’influent et l’autre comme...

متن کامل

Building Quality Estimation models with Fuzzy Threshold Values

This work presents an approach to circumvent one of the major problems with techniques to build and apply software quality estimation models, namely the use of precise metric thresholds values. We used a fuzzy logic based approach to investigate the stability of a reusable class library interface, using structural metrics as stability indicators. To evaluate this new approach, we conducted a st...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014